GB 2312
阐述
GB 2312,全称 GB/T 2312–1980《信息交换用 汉字编码字符集·基本集》是中国在 1980 年发布的字集及编码标准,收录了 6763 个汉字和一些其他符号。汉字分为一级汉字(3755 个)和二级汉字(3008 个)。
区位
对汉字进行分区处理,共 94 区,每区有 94 个码位。
- 01 ~ 09 区:非汉字
- 16 ~ 55 区:常用汉字,拼音排序
- 56 ~ 87 区:非常用汉字,部首排序
- 10 ~ 15 区、88 ~ 94 区为空
对于同一个区位号,有不同的编码方式:
编码
ISO 2022-CN(国标码、交换码)
为了避开 0x00 ~ 0x20,将区码和位码分别加上 0x20 得到双字节编码。因此,高位和低位的空间分别为 0x21 ~ 0x7E.
EUC-CN(机内码、内码)
为了避开整个 ASCII,将区码和位码分别加上 0xA0 得到双字节编码,也即把国标码的高位 0 换成 1。因此,高位和低位的空间分别为 0xA1 ~ 0xFE.
实例
「万」字的区位码是 45-82,
- ISO 2022-CN:编码为 (77, 144),十六进制 4D 72
- EUC-CN:编码为 (205, 242),十六进制 CD F2